1 任务描述
本实验室利用卷积神经网络对imdb数据进行文本分类
2 实验过程
(1)引入实验中所涉及到的包
数据集包、数据预处理包、网络模型包、网络各层结构所对应的包
from __future__ import print_function
from keras.preprocessing import sequence
from keras.models import Sequential
from keras.layers import Dense,Dropout,Activation
from keras.layers import Embedding
from keras.layers import Conv1D,GlobalMaxPooling1D
from keras.datasets import imdb
(2)设置网络结构中的一些常数
主要包含了两方面的常数:一是数据处理过程中,词向量维度,词汇表长度等相关的参数;二是网络结构中参数
# 设置词汇表的长度,在数据预处理过程中,选择词汇字典中前max_features索引的词汇。
max_features=5000
# 将每个句子填充或截断至maxlen长度
maxlen=400
batch_size=32
# 设置词向量的维度
embedding_dims=50
filters=250
kernel_size=3
# 设置全连接层中,神经元的个数
hidden_dims=250
epochs=2
(3)加载数据与数据预处理
print("loading data...")
(x_train,y_train),(x_test,y_test)=imdb.load_data(num_words=max_features)
print(len(x_train),"train sequences")
print(len(x_test),"test sequences")
print("pad sequences (samples*time)")
# 将每一条数据填充至相同的长度
x_train=sequence.pad_sequences(x_train,maxlen=maxlen)
x_test=sequence.pad_sequences(x_test,maxlen=maxlen)
print("x_train.shape:",x_train.shape)
print("x_test.shape:",x_test.shape)
loading data...
25000 train sequences
25000 test sequences
pad sequences (samples*time)
x_train.shape: (25000, 400)
x_test.shape: (25000, 400)
(4)建立模型
print("Build model...")
# 采用序列模型
model=Sequential()
# 添加词嵌入层,词嵌入层只能作为神经网络的第一层
model.add(Embedding(max_features,embedding_dims,input_length=maxlen))
model.add(Dropout(0.2))
model.add(Conv1D(filters,kernel_size,padding="valid",activation='relu',strides=1))
# 使用maxpooling
model.add(GlobalMaxPooling1D())
# 添加全连接层
model.add(Dense(hidden_dims))
model.add(Dropout(0.2))
model.add(Activation('relu'))
# 输出层
model.add(Dense(1))
model.add(Activation("sigmoid"))
model.compile(loss="binary_crossentropy",optimizer='adam',metrics=['accuracy'])
model.fit(x_train,y_train,batch_size=batch_size,epochs=epochs,validation_data=(x_test,y_test))
Build model...
Train on 25000 samples, validate on 25000 samples
Epoch 1/2
25000/25000 [==============================] - 64s 3ms/step - loss: 0.4040 - acc: 0.8005 - val_loss: 0.3088 - val_acc: 0.8657
Epoch 2/2
25000/25000 [==============================] - 63s 3ms/step - loss: 0.2305 - acc: 0.9086 - val_loss: 0.2977 - val_acc: 0.8765
(5)网络结构
from keras.utils import plot_model
plot_model(model,to_file="./imdb_cnn.png")
3 小结
这次实验采用了卷积神经网络来对文本数据进行分类。而不是使用以往的RNN(LSTM/BiLSTM等),这样实验下来,对keras中其他结构的使用也进一步熟悉。在本实验中,主要有以下几点收获:
(1)常用层的使用
常用层对应于core模块,其定义了一系列常用的网络层,在本次实验中主要用到了全连接层、激活层和Dropout层。这几层都比较简单,具体介绍见https://keras-cn.readthedocs.io/en/latest/layers/core_layer/
(2)一维卷积层
一维卷积即为时域卷积,用以在一维输入信号上进行邻域滤波。其原型为keras.layers.convolutional.Conv1D(filters, kernel_size, strides=1, padding=’valid’, dilation_rate=1, activation=None, use_bias=True, kernel_initializer=’glorot_uniform’, bias_initializer=’zeros’, kernel_regularizer=None, bias_regularizer=None, activity_regularizer=None, kernel_constraint=None, bias_constraint=None)
该层生成将输入信号与卷积核按照单一的空域(或时域)方向进行卷积。主要参数如下:
①filters:卷积核的数目(即输出的维度)
②kernel_size:整数或由单个整数构成的list/tuple,卷积核的空域或时域窗长度
③strides:整数或由单个整数构成的list/tuple,为卷积的步长。
④padding:补0策略,为“valid”, “same” 或“causal”,“causal”将产生因果(膨胀的)卷积,即output不依赖于input。
⑤activation:激活函数,为预定义的激活函数名。